查看原文
其他

企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)

企研数据 社科大数据 2022-12-31


本文承接自上文企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)欢迎阅读查看。

后台回复关键词“20220817”即可获取工企库与工商库匹配报告PDF版。



中国工业企业数据库与全量工商企业数据库匹配报告(下)

Part3技术路线图与方法介绍

1技术路线图

通过对两个数据库的前期调研,我们将具体处理过程分为两步:
第一步,对工企库进行单独清洗,主要是指对工企库中重复或者数据信息相似的样本进行识别和筛选。也就是说,不仅剔出完全重复的样本记录,还将高度相似的样本记录,利用相似度算法(详细处理过程见《应用文本相似度算法为中国工业企业数据库筛选重复样本》)进行识别和筛选。
第二步,正式对两个数据库进行横向匹配,主要采用序贯匹配法。序贯匹配法是利用准确性由强到弱的信息逐步匹配的方法,为该领域惯用之法(Brandt et al,2012;田巍和余淼杰,2012;杨汝岱,2015)。本文各个步骤匹配所利用到的信息依次为统一社会信用代码(内含组织机构代码)、企业名称、工商注册号、企业成立时间+行政区划代码+法定代表人、邮政编码+电话号码。
包括上述两步的完整技术路线如图2所示。
图2 工企库与工商库完整匹配的技术路线图

注:图中的“good表”表示某条数据与其他数据无重复或者高度相似,“bad表”则表示某条数据与其他数据存在重复或者高度相似。

2本文匹配流程

(1) 数据核对与预处理

本文采用的是北京大学图书馆采购的工企库版本(以下简称“北大库”)。当前学者使用的工企库可能存在多个版本,因此在数据量上会存在一定的差异,表1比较了官方公布的企业数、利用北大库统计所得,以及部分学者在其文献中所列示的企业数。可以发现,1998-2008年,与官方公布的数据比较差距较小,可见北大库在这一年份期间数据质量较好,而后续几年则质量波动较大。

表1 各版本数据量对比

注:Brandt版来源于Brandt L., et al.(2014),聂辉华版出自聂辉华等(2012),余淼杰版出自Yu M,Tian W(2012);陈林版来自于陈林(2018)。

在匹配之前,首先需要验证数据是否存在相似或者完全一致的情况。针对不同变量信息采用不同的处理办法,对于组织机构代码,我们认定一旦出现重复,该条数据即含有潜在问题;对于企业名称,则采用相似度算法来判别两条数据是否存在企业名高度相似或完全相同的情况;对于财务信息,根据变量值完全相同的变量个数(本文选定为财务数据部分变量个数的80%)来判断数据是否存在捏造。详细过程参见《应用文本相似度算法为中国工业企业数据库筛选重复样本》。
根据以上处理步骤,将处理后的数据分为“good表”及“bad表”,以区分原始数据是否存在重复或者相似的问题,其中“good表”表示数据暂无重复或者相似的问题,“bad表”则表示数据存在重复或者相似的情况。不过,由于在相似度计算的过程中是将历年数据按照城市分拆后,逐个城市进行相似度测算,所以难免会存在不同城市的企业存在组织机构代码、企业名称或者财务数据相同的情况。因此在处理完数据相似度之后,仍然需要对数据进行进一步的验证(即技术路线图中的验证1和验证2)。
验证1和验证2,就是将完成相似度计算的good表逐年核查C002(组织机构代码)、C003(企业名称)是否存在相同的数据,如果在“good表”里仍然存在相同的数据,则将这部分数据的标签修改成“bad”。之后,再将“good表”与“bad表”合并,再度核查C002与C003是否存在相同的情况,最终得到含有准确标签的工企库。前文相似度计算出的结果以及该步骤的处理情况详见下表2。

表2 历年“good表”及“bad表”企业数量情况

在完成工企库标签的设置过程中,有个重要的步骤需要一并处理,即企业名称的标准化。由于工企库中的企业名称可能存在特殊字符、多余的空格、数字括号与字母格式不统一(如全角半角)等情况,倘若不进行处理而直接用来匹配,难免会存在无法匹配的情况,进而导致匹配率降低,因此在正式匹配前需要对企业名称进行标准统一的处理(具体细节参见我们即将推送的《中国工业企业数据库与专利数据库匹配报告》一文)。

(2) 详细匹配流程

接下来就是逐年将预处理后的工企库与工商库进行匹配。匹配的总体思路为序贯匹配法,具体来说,采用匹配变量“A”匹配后,可以匹配上的即为匹配结果,不能匹配上的用另外的匹配变量“B”进行匹配,仍不能匹配的数据采用匹配变量“C”进行匹配,如此循序进行,最终剩下匹配完成的以及利用各种信息均无法匹配的两部分数据。
在匹配之前,我们先将北大库中组织机构代码、企业名称、法定代表人、省地县码、行政区划代码、邮政编码、固定电话、工商注册号等8个匹配变量的数据缺失情况进行统计(详见表3),目的是查看数据是否支持此匹配流程,并按组织机构代码、企业名称、工商注册号、企业成立时间+法定代表人+行政区划代码、邮政编码+电话等五种方式按顺序进行匹配。详细流程图见前文技术路线图。

表3 可匹配变量缺失情况表

注:表中“ \”表示该年工企库中无此变量。

第一步,利用工业企业的组织机构代码与工商库中基于统一社会信用代码得到的组织机构代码进行匹配。统一社会信用代码是国家为了推进社会信用体系而大力推行的一种制度,其为一组长度18 位的代码,用以代表或识别法人和其他组织的身份,具体包括登记管理部门代码、机构类别代码、登记管理机关行政区划码、主体标识码(组织机构代码)、校验码五个部分组成,具有唯一性、兼容性、稳定性、全覆盖四个特点。统一社会信用代码内的第四部分即为组织机构代码。[1]从工商库的统一社会信用代码中取出组织机构代码,然后关联工企库中的组织机构代码就能完成匹配。
第二步,通过工企库中的企业名称与工商库中的企业历史名称拉链表进行匹配。前文指出,仅通过不同企业数据库中的企业名称进行匹配会存在误匹、多匹的情况,引入企业历史名称拉链表就可以很好地解决这个问题。具体来看,企业历史名称拉链表理论上包含了历史上任意一家企业整个生命周期内所有存在过的企业名称,相对应地这些企业名称都对应着一个企业唯一标识码。将工企库的企业名称与该表匹配,倘若只存在唯一匹配记录,视为匹配成功;若不存在匹配记录,说明工企库企业名称有错误的可能,也有可能是企业历史名称拉链表存在缺漏;若存在多条匹配记录,则视为匹配不成功(事实上,还可以通过时间、地区等其他变量进行验证,确定正确匹配的记录,不过为了匹配过程的一致性与连续性,该部分数据进入下一匹配环节)。
第三步,通过工企库、工商库中的工商注册号进行匹配。工商行政管理注册号登记于工商营业执照内,是工商行政管理部门(市场监督管理局)在市场主体登记注册时赋予其的标识码,具有定位和关联一个市场主体各类相关信息的重要作用。2007 年国家工商行政管理总局下发执行《工商行政管理注册号编制规则》(工商办字[2007]79 号)[2],规定内外资企业及分支机构、来华从事生产经营活动的外国 (地区)企业、个人独资企业和合伙企业、个体工商户等市场主体需按照规定赋号。工商注册号具体是由6位首次登记机关码、8位顺序码、1 位数字校验码构成。需要强调的是,市场主体赋号后,其工商注册号是终生唯一不变的,任何市场主体只能拥有一个注册号,任何一个工商注册号也只能对应一个市场主体。值得一提的是,在我国实行“多证合一”政策之后,工商注册号已退出历史舞台,取而代之的则是统一社会信用代码。实践当中工商注册号数据也有其缺陷,这也是为何本文先用企业名称进行匹配的原因,详见附录。
第四步,通过工企库、工商库中的企业成立年月、行政区划代码、法定代表人进行匹配。假定同一个地方同一年月一个姓名可以唯一识别一家企业,我们首先验证了这种方式的可行性,在工商库中,我们用上述三种信息进行重复的统计,发现本文所用工商库中67000821企业中,可唯一识别出64843700家企业,识别率高达96.78%,说明用该方式唯一识别并匹配不同数据库中的企业,准确度相当高。
第五步,通过工企库、工商库中的邮政编码与电话号码进行匹配。该方式同样需要验证邮编加电话号码的唯一识别率,在工商库中,含邮编和电话号码的企业有588.56万家,通过邮编和电话号码可唯一识别出418.42万家企业,识别率为71.09%。尽管识别率不是很高,但由于匹配过程均是选择唯一匹配的结果,因此其仍然可以作为我们匹配的依据。此处需要说明的是,该步骤利用的电话号码是截取电话号码后七位进行匹配的,原因是工企库中的电话号码绝大多数为固定电话,且不同地区固话的长度存在七位和八位之分,而工商库年报数据中的电话则是手机号码和固话共存,长度不一。所以事先需要剔除工商库中长度不合规定的号码,保留长度为7位、8位、12位、13位,以及长度为11位且首位不以“1”开头的电话号码[3],然后再将两者均取后七位进行匹配。

3匹配结果

通过上述五个步骤得到的匹配结果如表4所示。可以看到,除去2008年、2009年由于工商注册号的缺失以及2008年行政区划字段存在问题而无法用于匹配导致匹配率略有下降之外,其他年份匹配率总体呈现出上升的趋势。早期年份匹配率较低主要因为组织机构代码、企业名称的规范程度较低,随着年份的推移,数据录入和数据管理水平上都有较大程度的提升,因而工企库后期年份的匹配率有了显著的提高。
由于匹配上工商库的工企库企业样本获得了工商库的唯一识别码,因此这类企业本身的纵向匹配问题已经随之解决。工企库内部剩余未能匹配到工商库的企业的纵向匹配,仍可按照已有文献的做法进行。

表4 工业企业数据匹配结果表

①:工商注册号仅为2004-2007,2010-2013年(共八年)存在;

②:2008年无法定代表人信息。

③:2001年第四步由于C006的长度均少于6,因此无法用该步骤进行匹配,故可匹配数为0。

Part4结论

本文通过横向匹配工企库与包含中国全量工商企业注册信息的工商库,为工企库中的工业企业匹配工商企业唯一识别码,并扩充了工企库的匹配字段,拓展了工企库的应用范畴。从结果上看,匹配效果大致呈现出逐年升高的趋势,最近的2013年数据匹配率接近99%。由于当前并无学者或者研究机构对工企库与工商库进行匹配并正式对外发布,因此我们无从对比其他人匹配的结果。
考虑到目前工企库与专利库、海关数据库匹配开展的研究较为广泛和深入,我们将进一步用匹配好企业唯一识别码的工企库与已经与工商库进行匹配从而获得企业唯一识别码的海关数据库与专利库进行匹配,进而与其他学者匹配结果进行对比,结果发现,利用本文的成果,工企库与专利库、海关库的连接成功率取得了明显改进,这进一步说明了本文工作的价值。


注释

[1]  组织机构代码是对我国境内依法注册、依法登记的机关,企、事业单位,社会团体和民办非企业单位颁发一个在全国范围内唯一的、始终不变的代码标识,是各类组织机构在社会经济活动中的通行证。组织机构代码共包含9位数字,分为八位数字(或大写拉丁字母)本体代码和一位数字(或大写拉丁字母)校验码两个部分。
[2]  在此之前,不同类型企业登记存在不同的规则赋号。其中内资企业在1999年由8位改为13位,改后的注册号由6位数行政区划代码+1位企业经济性质+6位数顺序号构成;外资企业则是汉字+数字+号构成,如企独苏宁总字第001123号、企作粤穗总字第007001号。事实上,在07年发布《规则》以前,各类企业赋号较为混乱,如极个别地区会出现内资企业12位、15位注册号或三资企业13位(一般为6位)。
[3]  地区如上海、天津、重庆、南京等城市,其区号为三位数;地区如深圳、杭州、长沙、南昌等城市其区号为四位数。一般而言,区号为三位数的地区其固话长度为八位数,而区号为四位数的地区,固话长度为七位数。不过,随着电话的普及,不少区号为四位数的地区均存在七位升八位的情况。因此考虑到电话号码“XXX-XXXXXXXX”(3+1+8)、“XXXX-XXXXXXX”(4+1+7)、“XXXX-XXXXXXXX”(4+1+8)的形式。当然也存在诸如南京市1993年、北京市1996年前存在7位数固话,加上区号后与手机号11位数恰好相等,因此需要将这部分同样纳入考虑范围。

Part5参考文献

[1] Brandt L., et al. Challenges of working with the Chinese NBS firm-level data[J]. China Economic Review, 2014:339–352.

[2] Brandt L, Biesebroeck J V, Zhang Y.Creative Accounting or Creative Destruction? Firm-level Productivity Growth in Chinese Manufacturing[J]. Journal of Development Economics, 2012, 97( 2):339-351.

[3] Xie,Z.,and X.Zhang.“The Patterns of Patents in China”,China Economic Journal, ,2015,8( 2) ,122—142.

[4] He,Z.,T.W.Tong,Y.Zhang,and W.He,2018,“A Database Linking Chinese Patents to China’s Census Firms”,Scientific Data,5,180042.

[5] Yu M , Tian W. China's Processing Trade: A Firm-Level Analysis. In Huw McMay and Liang Song(eds.) Rebalancing and Sustaining Growth in China.Australian National University E-Press.2012:111-148.

[6] 聂辉华,江艇,杨汝岱.中国工业企业数据库的使用现状和潜在问题[J].世界经济,2012,35(05):142-158.

[7] 寇宗来,刘学悦.中国企业的专利行为:特征事实以及来自创新政策的影响[J].经济研究,2020,55(03):83-99.

[8] 田巍,余淼杰.企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究[J].管理世界,2013(01):28-44.

[9] 杨汝岱.中国制造业企业全要素生产率研究[J].经济研究,2015,50(02):61-74.

[10] 戴觅,余淼杰,Madhura Maitra.中国出口企业生产率之谜:加工贸易的作用[J].经济学(季刊),2014,13(02):675-698.

[11] 陈林.中国工业企业数据库的使用问题再探[J].经济评论,2018(06):140-153.

Part6附录

匹配过程为什么选择先企业名称后工商注册号

在前文匹配过程中,我们采用的是第二步企业名称匹配(更准确地讲是企业历史名称拉链表匹配),第三步工商注册号匹配。之所以不是第二部采用工商注册号匹配,是因为相比较而言,先采用企业名称匹配后采用工商注册号匹配的准确率相对更高。以下将以2004年为例说明这个问题。
下表为调换第二步和第三步处理的最终结果。

表3-1 调换处理顺序的结果表

可以看到
②企业名称 + ③工商注册号 = 78524
②工商注册号 + ③企业名称 = 78524
即无论是先企业名称匹配还是企业名称在后匹配,第二步第三步处理的加总数据量是一致的,并且经验证后匹配的对象完全相同,而匹配到的工商企业唯一标识码不同的数据有1559条,占可匹配的0.60%,全部数据的0.56%。如下示意图。
针对这1559条用工商注册号进行验证。
例1:永兴县超时金属有限公司,其根据历史名称表跑出来的工商注册号为下图1框所示,而根据工商注册号跑出来的为下图框2所示。


例2:英吉沙县海洋水泥厂
例3:柳州柳工路面机械有限公司
综合以上,先采用企业名称匹配后采用工商注册号匹配的结果要更为准确。

后台回复关键词“20220817”即可获取工企库与工商库匹配报告PDF版。



关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入

企研·社科大数据平台数据分享群





推荐关注

·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


CCAD | 赠送相关数据!2022教育部课题公示:“三农”立项课题有哪些?

TFID | 普惠小微主体子库 — 登记注册模块&投融资模块介绍

TFID | 普惠小微主体数据库(2022版)正式上线!

TFID | 证券业普惠专题数据库(2022版)正式上线!

企研·社科大数据平台 | 七月我们上新了这些数据库...



戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存